领域大模型的意义【2023Q4】
TLDR
领域大模型长期来说是可以被通用大模型完全替代的。
在短期内,通过继续预训练的方式(甚至重新预训练)一个领域大模型对于提升领域上的表现仍然是有不小作用的。
领域大模型的API是一个差异化的feature,可以卖的更贵。
0、前言
训练一个领域大模型是否有意义这个问题在之前就已经吵了很久了,直到最近,我才冒出了这个答案。
本文的逻辑完全是从模型效果层面来说的。
1、特定领域上的效果
虽然LLM对于各领域是通用的,只要训练的语料里有这个领域的语料就行。
但这不代表“得到的LLM在每个领域的表现都一样的好”。也不代表“得到的LLM的效果能够满足每个领域的需求”。
所以在有一些领域上,目前通用的LLM效果差于应用的需求是很正常的。可能是总体语料中这个领域的语料不够,或者是这个领域的知识较难学习,或者其他原因。
这种效果和需求的Gap,就是一种需求,虽然这个需求并非是非常长期的。
例如说,我就遇到法律领域的专家觉得目前通用的LLM(无论国内还是国外),对于中国的法律知识理解是有明显不足的,拖累了他做这方面的应用。
2、阶段性的应对方案——领域大模型
想要改进某个方面的效果是不难的,例如:
语料数据方面:增加该领域的数据,增加该领域数据的占比,增加该领域数据的权重。
在训练后期针对性的增强:继续预训练(继续预训练阶段增加该领域数据的比重)
其他模型本身的炼丹trick
虽然说不是简单的加点这方面语料就能实现达到效果,但认真的去找一些数据并认真的去调教,是可以有效提升这方面的效果的。
这就是目前领域大模型的意义,成本不高,但可以有效地提升某领域的基础表现。
只要想用这个领域定制大模型的用户能够支撑定制这个模型的成本就没问题。
3、领域大模型的应用场景
有基座训练或者继续预训练能力的应用团队能闭环一切,不在本节的讨论范围。
领域大模型更多是给上层自己做继续预训练成本较高的应用团队准备的,例如说做法律领域应用的团队,其实就很需要一个法律领域大模型的API服务。
当然用了领域大模型的团队,也仍然可能会有继续在自己小问题上微调的需求。所以领域大模型API最好也能够提供继续自动微调的API能力。
当然是针对特定领域的,且通用LLM不能满足,那么这个服务就是有溢价的,API可以卖的比普通LLM更贵。对于基座LLM公司来说,这也是个不错的差异化的点。
交流与合作
如果希望和我交流讨论,或参与相关的讨论群,或者建立合作,请私信联系,见 联系方式。
希望留言可以到知乎对应文章下留言。
本文于2023.10.26首发于微信公众号与知乎。
知乎链接 https://zhuanlan.zhihu.com/p/663514101